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Beschreibung 

Verfahren und Vorrichtung zum automat ischen Lesen von Adres- 
sen in mehr als einer Sprache 

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum 
automat ischen Lesen von Adressen in mehr als einer Sprache, 
von denen mindestens eine in nichtlateinischer Schrift ge- 
schrieben wird (alle westlichen Lander und eine Reihe ostli- 
cher Lander benutzen fur ihre europaische Sprache einheitlich 
lateinische Schrift erganzt urn nationale Sonderzeichen, in 
der Regel mit diakrit ischen Zeichen versehene lateinische 
Buchstaben) . 

Schriften entstanden ursprunglich in einem Sprach- bzw. Kul- 
turraum. Spater wurden Schriften von einem Sprachraum auf an- 
dere ubertragen. Insbesondere alphabet ische Zeichen, also 
Laut-kodierte Zeichen sind, fur sich gesehen, sprachunabhan- 
gig. Jedoch alle Zeichenf olgen (Strings) sind bereits sprach- 
abhangig, Zeichenf olgen, die Worte kodieren, sind die Elemen- 
te einer Sprache. 

Gegenwartig werden in der westlichen Welt Adressenleser stan- 
dardmaSig eingesetzt, die die Adressen auf Sendungen automa- 
tisch lesen und oft bis zum Zustellpunkt interpretieren . Im 
Gegensatz dazu steht das automatische Lesen und das Interpre- 
tieren von Adressen in Sprachen mit nicht lateinischen Schrif- 
ten, wie z.B. in den Regionen Osteuropa, Afrika und Asien, 
noch am Anfang seiner Entwicklung. Oft ist in diesen Landern 
der Leseprozess, sofern er uberhaupt schon automatisiert ist, 
auf das Lesen des Postkodes beschrankt. Lesen der vollstandi- 
gen Adresse bis zum .Zustellpunkt ist mit der herkommlichen 
Technik nicht moglich. 

Hinzu kommt, dass in diesen Landern haufig neben der globalen 
Sprache Englisch, die meist fur die internationale Geschafts- 
post verwendet wird, auch mindestens eine lokale Amtssprache 
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verwendet wird. Das ist meist eine Zusat zsprache , es konnen 
aber auch mehrere Sprachen sein, wie z.B. in Indien. Dies 
macht das mehrsprachige Lesen mit mindestens einer nicht - 
lateinischen Schrift zusatzlich notwendig . Entsprechende L6- 
5 sungen sind bisher nicht bekannt geworden. 

Der Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren 
und eine Vorrichtung zum auf wandsarmen Lesen von Adressen in 
mehr als einer Sprache, von denen mindestens eine eine nicht - 
10 lateinische Schrift besitzt, zu schaffen. 

Erf indungsgemaS wird die Aufgabe durch die kennzeichnenden 
Merkmale der unabhangigen Anspruche 1 und 8 gelost . 

15 In den Gebieten mit den Adressblocken werden die Schriftzei- 
chen mittels OCR-Zeichenerkennungseinheiten gelesen, wobei 
fur jede vorgesehene Sprache eine eigene OCR-Zeichen- 
erkennungseinheit vorgesehen ist, wobei sich im giinstigsten 
Fall die OCR-Einheiten lediglich in den ausgewendeten Zei- 

20 chenmodellen unterscheiden, ansonsten identisch fur alle 

Sprachen angelegt sind, also multilingual sind. Die Ausgabe 
der Leseergebnisse erfolgt in einer Schrift -neutralen Trans- 
literations -Repr as ent at ion . 

% 

^zS Nach dem ersten Auswerten der gelesenen Zeichen in einer Ad- 
ressanalyseeinheit , in der anhand von sprachbezogenen Syntax - 
regeln die verschiedenen Adresselemente klassif iziert werden, 
d.h. in der bestimmt wird, ob sie z.B. vom Typ „ StraSe" oder 
„Ort" sind, werden die gelesenen und ident if izierten Adress- 

3 0 elemente mit Hilfe einer Adressdatenbasis , die zu j edem Ein- 
trag alle relevanten sprachabhangigen Transliterationsvarian- 
ten fur die vorgesehenen Sprachen enthalt, verif iziert, d.h. 
es erfolgt eine mult ilinguale Adressinterpretation . Bei Uber- 
einstimmung der zu verif izierenden gelesenen Adresse mit ei- 

i 

3 5 ner der Transliterationsvarianten eines Eintrages oder bei 
einer Ahnlichkeit im festgelegten AhnlichkeitsmaS wird die 
Adresse akzeptiert, ansonsten wird die Adresse zuriickgewie- 
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sen. Im Gegensatz zu den vorhergehenden Verarbeitungsstuf en 
gibt es nur eine sprachunabhangige Adressinterpretation . Le- 
diglich die Adressdatenbasis enthalt verschiedene sprachab- 
hangige Transliterationsvarianten, die wie verschiedene 
Schreibvarianten in ein und derselben Sprache behandelt wer- 
den. Die Schrif tunterschiede werden durch die fur jede 
Schrift eigene Zeichenerkennung wegnormiert und auf eine 
Schrif t-neutrale Represent at ionsebene gebracht , die Ebene der 
Transliteration . 

Vorteilhaf te Ausgestaltungen der .Erf indung sind in den Unter- 
anspriichen dargestellt. 

So ist es vorteilhaf t, die Gebiete mit den Adressblocken in 
den aufgenommenen Oberflachen mittels sprachabhangiger , aus 
Lernstichproben erzeugter Layoutmodelle zu ermitteln, wobei 
bei festgelegter Ahnlichkeit mit dem Adressblock im jeweili- 
gen Layout das untersuchte Gebiet als Adressgebiet definiert 
wird. Zusatzlich erfolgt eine bildhafte Segment ierung des Ad- 
ressblockes in Zeilen-, Wort- und Zeichengebiete . 

Vorteilhaft ist es auch, bereits im friihen Stadium der Bild- 
verarbeitung, also noch vor der eigentlichen Zeichenerken- 
nung, die segmentierten Bilddaten der Adressblocke einer 
Sprachentscheidungseinheit zuzufiihren, in der auf der Bild- 
ebene durch Vergleiche mit sprachtypischen Merkmalssat zen ei- 
ne Zuordnung zu dem Merkmalssatz mit der.groSten Ubereinstim- 
mung und damit zu der entsprechenden Sprache erfolgt. 

Damit ergibt sich die vorteilhafte Ausgestaltung, den Adress- 
block zuerst nur in der OCR-Erkennungseinheit fur die Spra- 
che, die in der Sprachentscheidungseinheit ermittelt wurde, 
zu lesen. Wird im Laufe des Leseprozesses bis zur Adressin- 
terpretation keine zuzuordnende Adresse gefunden, so wird der 
Leseprozess mit OCR-Erkennungseinheiten fur weitere Sprachen 
in der Reihenfolge der Wahrscheinlichkeit , die vom Sprachent- 
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scheider fur jede Sprache ermittelt wurde, wiederholt, bis 
das Leseergebnis akzeptiert wird. 

Kami mit keiner der OCR-Erkennungseinheiten ein akzeptiertes 
5 Leseergebnis fur die Adresse erzielt werden, so erfolgt das 
Lesen der als Worter identif izierten Adressteile in einer 
Worterkennungseinheit , die fur jede vorgesehene Sprache ent- 
sprechende Entscheidungskriterien beinhaltet. 

10 Vorteilhaft ist es auch, bei Ahnlichkeiten der durch den Le- 
seprozess produzierten Adresselemente mit den Ref erenzeintra- 

p gungen der Adressdatenbasis im festgelegten AhnlichkeitsmaS 

die Adresselemente entsprechend den Eintragungen zu korrigie- 
ren . 



15 

AnschlieSend wird die Erfindung anhand der Zeichnung naher 
erlautert . 

Dabei zeigen 

20 FIG 1 ein Blockschaltbild eines Mehr sprachen - Les e - 

Systems , 

FIG 2 ein Flussdiagramm zum Verf ahrensablauf . 

Mit einer nicht dargestellten Abtasteinrichtung erzeugte Bil- 
©5 der 1 werden derart in einer Bildverarbeitungseinheit 2 von 
storender Hintergrundinf ormation bereinigt, dass moglichst 
nur Schrift iibrigbleibt. AnschlieSend wird in der gefilterten 
Bildinf ormation der postalisch relevante Adressblock mittels 
sprachabhangiger Layout model le 3 geortet . Die Layoutmodelle 

3 0 enthalten in statist ischer Form die Information uber Lage und 
Ausdehnung der relevanten Adressblocke in einer reprasentati- 
ven Lernstichprobe und somit auch die Information, wo der re- 
levante Adressblock in der aktuell vorliegenden Sendung zu 
erwarten ist. Je nach Sprache und Schrift miissen getrennte 

35 Layout-Modelle erzeugt und angewendet werden, wie z.B. bei so 
unterschiedlichen Sprachen bzw. Schriften wie Englisch bzw. 
Lateinische Schrift, Arabisch bzw. Arabische Schrift oder Ko- 
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reanisch bzw. Hangul -Schrif t . Dahingegen sind die Lateini- 
schen Schriften so ahnlich, dass in der Regel nur ein Layout- 
Modell fur die europaische Schrif tgruppe Lateinisch- 
Griechisch-Kyrillisch gebraucht wird. 

Samtliche Blocke werden entsprechend ihrer Lage auf der abge- 
tasteten Oberflache bzw. ihrer Relation zu Nachbarblocken 
entsprechend den Erf ahrungswerten aus den Layout -Modellen ge- 
wichtet . 

Der Block mit dem hochsten Gewicht stellt mit groSter Wahr- 
scheinlichkeit den gesuchten Adressblock dar. Bei mehreren 
Layout -Modellen mussen die jeweils maximal bewerteten Blocke 
je Sprache bzw. Schrif t als potentielle Blocke weiterverar- 
beitet werden. Zusatzlich werden die Adressblocke nach bild- 
haften Eigenschaf ten in Zeilen und Zeichenabschnitte segmen- 
tiert. 

Eine nachfolgende Sprachentscheidungseinheit 4 unterwirft die 
angebotenen segmentierten Bilddaten des Adressblocks einer 
auf die Sprache bzw. Schrift zugeschnittenen Analyse noch be- 
vor der Text erkannt wird, rein auf der Basis von bildhaften 
Merkmalen. Ein sprachabhangiger Merkmalssatz aus einer klei- 
nen Anzahl von Merkmalen ermittelt, ob ein angebotener Block 
der einen oder anderen Sprache zugehort . Im Falle Englisch 
und Arabisch sind das unter anderem statistisch erfasste Aus- 
sagen uber Links- oder Rechtsbundigkeit bzw. Zentriertheit , 
z.B. englische Ziel -Adressblocke sind nie rechtsbiindig oder 
selten zentriert, arabische sind dagegen meist rechtsbiindig, 
gelegentlich zentriert, und nie linksbiindig. 
Andere Merkmale sind z.B. die Haufigkeit, die Dichte der 
diakritischen Punkte bzw. Unterlangen unter der Basislinie 
einer Textzeile. 

Unterlangen z.B. kommen in Englisch/Lateinisch relativ selten 
vor (jgpy) , im Arabi schen dagegen haufig, Punkte unter der 
Basislinie kommen in der Lateinischen Schrift theoretisch gar 
nicht vor, dagegen im Arabischen haufig (ba, ya) , Punkte uber 
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der Zeile kommen im Englischen bzw. in der Lateinischen 
Schrift selten selten vor (ij), dagegen im Arabischen haufig 
(ta, tha, kha, dal, zayy, shin, dad, ayn, ghayn, fa, qaf, 
nun) . 

5 

Nachdem der Prozess der Sprachentscheidung durchgefiihrt wor- 
den ist und die mutmaSliche Sprache Li feststeht, wird eine 
auf diese Sprache spezialisierte OCR-Zeichenerkennungs- 
einheit 5 von mehreren auf jeweils eine Sprache bzw. deren 
10 Schrift zugeschnittenen OCR- Zeichenerkennungseinheiten 5 auf- 
gerufen. Diese liefert zu den angebotenen Zeichen- und Wort- 
segmenten die entsprechenden Bewertungen in Form von Zei- 
chen-/Worterkennungsvorschlagen plus zugehorigen Glaubwurdig- 
kei t swerten zuriick . 

15 

Diese Ergebnisse werden in einer sich anschlieSenden Adress- 
analyseeinheit 6 einer Uberpriifung der sprachabhangigen 
Adress-Syntax unterworfen. 

2 0 Dabei werden die Adresselemente ermittelt und unter Verwen- 
dung der Syntaxmodelle - 11 - klassif iziert . Dies erfolgt 
u.a. mit Hilfe einzelner Schliisselworter oder Bezeichner wie 
„StraSe x \ „Nummer", „ Post f achnummer x% etc., die in der Adresse 
gesucht werden. Es wird also die Hierarchie der Adresselemen- 
te wie <Staat>, <Stadt>, <StralSe>, <Post f achnummer> etc. aus- 
findig gemacht . 

In der nachf olgenden Stufe der Verarbeitung , der Adressinter- 
pretationseinheit 7 fur die letzte Stufe der Verarbeitung 
30 wird die Adresse mittels einer Adressdatenbasis verif iziert, 
d.h. bestatigt, korrigiert oder rejektiert. 

Im Gegensatz zu den vorhergehenden Verarbeitungsstuf en gibt 
es bei der Adressinterpretation nur eine sprach-unabhangige 
35 Adressinterpretation mit einer Adressdatenbasis. Diese Ad- 
ressdatenbasis enthalt pro Eintrag verschiedene sprachabhan- 
gige Varianten, sogenannte Aliase. Diese werden wie Schreib- 
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varianten in ein und derselben Sprache behandelt: Die 
Schrif tunterschiede werden durch die Multilinguale OCR- 
Erkennung - eine eigene OCR-Erkennungsein-heit 5 je Sprache - 
wegnormiert und auf eine sprachneutrale Reprasentationsebene 
5 gebracht : die Ebene der Transliteration. 

Z.B. erscheint die Hauptstadt von Griechenland als englische 
Variante ATHENS, als deutsche Variante ATHEN, als franzosi- 
sche Variante ATHENE, uns als griechische Variante ATINAI, 
,10 einer buchstabenweisen Umsetzung oder Transliteration des ur- 
spriinglichen griechischen Textes : AGivou . 

t 

Zur Adressinterpretation werden die einzelnen relevanten Ad- 
resselemente in der nichtlingualen Adressdatenbasis - 12 - 

15 „nachgeschlagen" , d.h. ein Zugriff auf identische bzw. 

nachstahnliche Eintrage gemacht . Findet sich der Zeichen- 
string exakt wieder, wird er als richtig akzeptiert. Findet 
sich der identische Zeichenstring nicht, dafiir aber genau ein 
ahnlicher String und kein weiterer Konkurrenzstring in der 

20 Nahe, d.h. ist z.B. der Levenshtein-Abstand zum nachst ahnli- 
chen Eintrag groSer als eine vorgesehene Akzeptanzschwelle , 
ist also mit anderen Worten der String sicher genug erkannt, 
wird er als Ergebnis ausgegeben. In alien anderen Fallen wird 
^ er rejektiert. Existiert ein Postkode, so wird dieser mit den 
entsprechenden Adressteilen korreliert. Nur die Adressen, de- 
ren Postkode nicht im Widerspruch zur Adresse steht, werden 
dann als „ richtig gelesen" akzeptiert. 

Ist das Ergebnis der Adressinterpretation immer noch negativ, 
3 0 - das ist in der Regel bei gebundener Handschrift und bei zu- 
sammenhangender Maschinenschrif t der Fall, also immer dann, 
wenn der Einzelzeichensegmention- und Klassif i'zierprozess 
versagt - so werden die Adresselemente in einer Worterken- 
nungseinheit 8 mit sprachbezogenen Entscheidungskriterien ge- 
3 5 lesen und mit den Leseergebnissen erfolgt eine nochmalige Ad- 
ressinterpretation . 



i 
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Hat die Sprachentscheidungseinheit 4 aufgrund der Bildmerkma- 
le eine Entscheidung getroffen, so ist sie nur vorlaufig, sie 
ist zwar meistens richtig (> 90%) , kann aber auch falsch 
sein. Aus diesem Grund ist ein Rucksprung vom Ende der Verar- 
5 beitungskette vorgesehen, der diese Entscheidung aufgrund 
„hoheren Wissens" revidieren kann, z.B. die Adressanalyse 
findet vorwiegend schlecht erkannte Schrif t zeichen vor, die 
bei dem nachsten Versuch weiterer Interpretation keinen Sinn 
ergeben. In diesem Fall wird der nachste Sprachkanal 5 mit 

10 den entsprechenden Zeichenmodellen - 10 - bemuht . 

In der FIG 2 wird der Verf ahrensablauf noch einmal kurz und 

£ ubersichtlich beschrieben. 

Nachdem die entsprechende Oberflache einer Sendung, z.B. ei- 
15 nes Brief es, eines Packchens, mit Hilfe eines Scanners aufge- 
nommen wurde, liegt ein abgespeichertes Bild mit einer Adres- 
se vor 10. In der anschlieSenden Verarbeitungsstuf e 20 wird 
das Bild bearbeitet, d.h. in einer Vorverarbeitung werden 
storende Hintergrundinf ormat ionen beseitigt und das Gebiet 

2 0 mit dem Adressblock wird mit Hilfe von sprachbezogenen Lay- 

outmodellen ll.l bis 11. n ermittelt. Dabei wird jedes Layout - 
modell mit dem Bild verglichen. Ist eine Ubereinstimmung oder 
eine Ahnlichkeit im festgelegten AhnlichkeitsmaS zu verzeich- 
nen, so wird der Adressblock zugeordnet . Zusatzlich erfolgt 
W'5 in dieser Verf ahrensstuf e 20 noch eine Zeilen und Zeichenseg- 
mentierung des Adressblockes auf der Bildebene. Danach wird 
durch bildhafte Vergleiche der Adressblocke , -teile und - 
zeichen mit entsprechenden Sprachmodellen 12.1 bis 12. n wie 
schon beschrieben das Modell mit der groSten Ubereinstimmung 

3 0 ermittelt, wodurch die Entscheidung uber die Sprache getrof- 

fen wird 21. Damit wird die OCR-Zeichenerkennungseinheit fur 
diese Sprache aktiviert und mittels des dazugehorenden 1 Zei- 
chensatzmodells 13.1, 13.2, 13. n erfolgt die Zeichener- 

kennung 22. 

35 

Die verschiedenen OCR-Zeichenerkennungseinheiten konnen auch 
aus nur einer Zentraleinheit mit verschiedenen Zeichensat zmo- 
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dellen bestehen, wobei entsprechend der gewahlten Sprache das 
dazugehorende Zeichensat zmodell aktiviert wird. 

In der sich anschlieSenden Adressanalyse 23 werden die gele- 
senen Zeichen mit Hilfe von Syntax-Modellen 14.1 bis 14. n 
klassif iziert . Diese Modelle sind ebenfalls sprachbezogen, 
d.h. die Analyse wird mit den Syntax-Modellen fur die ausge- 
wahlte Sprache durchgef uhrt . 

1st die Adressanalyse 23 erfolgreich, so werden in einer Ad- 
ressinterpretation 24 die Adresselemente anhand der Adressda- 
tenbasis mit den sprachabhangigen Transliterat ionsvarianten 
verif iziert. Bei Ubereinstimmung oder bei Ahnlichkeit im 
festgelegten AhnlichkeitsmaS werden die Adresselemente und 
die Adresse akzeptiert, wobei bei Ahnlichkeiten die Adress- 
elemente gemafi der Eintrage der Datenbasis korrigiert werden. 
Dabei kann es geschehen, dass ganze noch zu der Einzelzei- 
chenerkennung nicht aufgelost werden konnten. In diesem Fall 
wird die Worterkennung 2 5 aufgerufen. Sie gibt zu jedem Wort- 
bild die nach Wahrscheinlichkeit sortierten Wortbedeutungen 
zuriick. Die Worterkennung wird sooft aufgerufen, bis alle Ad- 
resselemente erkannt wurden, bzw. alle Auftrage abgearbeitet 
sind. Wurde der Adressinterpretationsprozess trotzdem erfolg- 
los durchgef uhrt , wird zu Sprachentscheidungen zuriickgesprun- 
gen und der Prozess mit der nachst wahrscheinlichen Sprache 
wiederholt . 

AbschlieSend werden fur die akzeptierten Adressen die Ver- 
teilkodes nach Kodierregeln 15.1, die von den Versanddiensten 
festgelegt werden, ermittelt 16. 



GR 2001P09588 



10 

Patentanspriiche 

1. Verfahren zum automatischen Lesen von Adressen in mehr 
als einer Sprache, von denen mindestens eine eine nicht 
lateinische Schrift besitzt, 

gekennzeichnet durch die Schritte: 

- Lesen der Schrift zeichen in den Gebieten mit den Ad- 
ressblocken in OCR-Zeichenerkennungseinheiten fur die 
vorgesehenen Sprachen, deren Leseergebnisse in einer 
sprachneutralen Transliterations-Reprasentation darge- 
stellt werden (13) , 

- Ermitteln und Klassif izieren der verschiedenen Adress- 
elemente aus den in den OCR-Zeichenerkennungseinheiten 
gelesenen Zeichen anhand von sprachbezogenen Syntax - 
Regeln (14) , 

- Verifizieren (15) der ident if izierten Adresselemente 
mit Hilfe einer einzigen Adressdatenbasis, die zu j edem 
Eintrag verschiedene sprachabhangige Transliterations- 
varianten enthalt, wobei bei Ubereinst immung der zu ve- 
rif izierenden gelesenen Adresse mit einer der Transli- 
terationsvarianten eines Eintrages oder einer Ahnlich- 
keit im festgelegten AhnlichkeitsmaS die Adresse akzep- 
tiert wird. 

2. Verfahren nach Anspruch l,dadurch gekenn- 
zeichnet, dass in den auf genommenen Oberfla- 
chen mit den Adressen die Gebiete mit den Adressblocken 
mittels sprachbezogener , aus Lernst ichproben erzeugter 
Layoutmodelle ermittelt werden und eine bildhafte Segmen- 
tierung der Adressblocke erfolgt (11) . 

3. Verfahren nach Anspruch 2,dadurch gekenn- 
zeichnet, dass die segment ierten Bilddaten der 
Adressblocke einer Sprachentscheidungseinheit (4) ; zuge- 
fuhrt werden, in der auf der Bildebene durch Vergleiche 
mit sprachtypischen Merkmalssat zen eine Zuordnung zu dem 
Merkmalssatz mit der groSten Ubereinst immung und damit zu 
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der entsprechenden Sprache erfolgt (12). 

Verfahren nach Anspruch 3, dadurch gekenn- 
zeichnet, dass der jeweilige Adressblock zu- 
erst in der OCR-Erkennungseinheit fur die in der Sprach- 
entscheidungseinheit ermittelten Sprache gelesen wird und 
bei einem nicht akzeptierten Leseergebnis dieser Adresse 
der Lesevorgang in OCR-Erkennungseinheiten fur weitere 
Sprachen wiederholt wird, bis das Leseergebnis akzeptiert 
wird. 

Verfahren nach einem der Anspruche 1 bis 4, dadurch 
gekennzeichnet, dass bei nicht akzeptier- 
ten Leseergebnissen der OCR-Zeichenerkennungseinheiten 
als Worter ident if izierte Adressteile in einer Worterken- 
nungseinheit gelesen werden, die fur jede vorgesehene 
Sprache entsprechende Entscheidungskriterien beinhaltet 
und deren Leseergebnisse ebenfalls mit Hilfe der Adress- 
datenbasis verifiziert werden. 

Verfahren nach Anspruch 4, dadurch gekenn- 
zeichnet, dass der Lesevorgang mit OCR- 
Zeichenerkennungseinheiten fur weitere Sprachen schon 
wiederholt wird, wenn mit der Adressanalyse der Leseer- 
gebnisse der aktivierten OCR-Zeichenerkennungseinheit auf 
der Basis der Syntaxregeln fur die aktuelle Sprache die 
Adresselemente nicht klassif iziert werden konnen. 

Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet, dass bei Ahnlichkeiten im festgeleg- 
ten AhnlichkeitsmaS der Adresselemente mit den Eintragun- 
gen der Adressdatenbasis die Adresselemente entsprechend 
den Eintragungen korrigiert werden. / r 

Vorrichtung zum automatischen Lesen von Adressen in mehr 
als einer Sprache, von denen mindestens eine eine nicht 
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. lateinische Schrift besitzt, gekennzeichnet 
d u r c h 

- fur jede vorgesehene Sprache eine OCR-Zeichenerken- 
nungseinheit (5) zum Lesen der Schrift zeichen in den 
Gebieten mit den Adressblocken, deren Leseergebnisse in 
einer sprachneutralen Transliterations -Representation 
dargestellt werden, 

- eine Adressanalyseeinheit (6) zum Auswerten der in den 
OCR-Zeichenerkennungseinheiten gelesenen Zeichen, in 
der anhand von sprachbezogenen Syntax-Regeln die ver- 
schiedenen Adresselemente ermittelt und klassif iziert 
werden, 

- eine Adressinterpretationseinheit (7) zum Verifizieren 
der identif izierten Adresselemente mit Hilfe einer Ad- 
ressdatenbasis , die zu jedem Eintrag verschiedene 
sprachabhangige Transliterationsvarianten enthalt, wo* 
bei bei Ubereinst immung der zu verif izierenden gelese- 
nen Adresse mit einer der Transliterationsvarianten ei- 
nes Eintrages oder einer Ahnlichkeit im festgelegten 
AhnlichkeitsmaS die Adresse akzeptiert wird. 

9. Vorrichtung nach Anspruch 8, gekennzeichnet 
d u. r c h eine Einrichtung (2) zum Ermitteln der Gebiete 
mit den Adressblocken in den auf genommenen Oberflachen 
mittels sprachbezogener , aus Lernst ichproben erzeugter 
Layout model le und zur bildhaften Segment ierung der Ad- 
ressblocke. 

10. Vorrichtung nach Anspruch 9, gekennzeichnet 
d u r c h eine Sprachentscheidungseinheit (4) , der die 
segmentierten Bilddaten der Adressblocke zugefuhrt werden 
und in der auf der Bildebene durch Vergleiche mit sprach- 
typischen Merkmalssatzen eine Zuordnung zu dem Merkmals- 
satz mit der groSten Ubereinstimmung und damit zu der 
entsprechenden Sprache erf olgt . 
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11 . . Vorrichtung nach Anspruch 10, gekennzeichnet 
d u r c h eine Worterkennungseinheit (8) zum Lesen von 
als Worter identif izierten Adressteilen im Falle nicht 
akzeptierter Leseergebnisse der OCR-Zeichenerkennungsein- 
heiten (5) , die fur jede vorgesehene Sprache entsprechen- 
de Entscheidungskriterien beinhaltet und deren Leseergeb- 
nisse ebenfalls der Adressinterpretationseinheit (7) zu- 
gefiihrt werden. 



i 
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Zusammenf assung 

Verfahren und Vorrichtung zum automat ischen Lesen von Adres- 
sen in mehr als einer Sprache 

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum 
automat ischen Lesen von Adressen in mehr als einer Sprache, 
von denen mindestens eine eine nichtlateinische Schrift auf- 
weist. Die Vorrichtung besitzt 

- fur jede vorgesehene Sprache eine OCR- Zeichenerken- 
nungseinheit (5) zum Lesen der Schrift zeichen in den Gebie- 
ten mit den Adressblocken, deren Leseergebnisse in einer 
sprachneutralen Transliterations-Reprasentation dargestellt 
werden, 

- eine Adressanalyseeinheit (6) zum Auswerten der in den OCR- 
Zeichenerkennungseinheiten gelesenen Zeichen, in der anhand 
von sprachbezogenen Syntax-Regeln die verschiedenen Adress- 
elemente ermittelt und klassif iziert werden, 

- eine Adressinterpretat ionseinheit (7) zum Verifizieren der 
identif izierten Adresselemente mit Hilfe einer Adressdaten- 
basis, die zu jedem Eintrag verschiedene sprachabhangige 
Transliterationsvarianten enthalt, wobei bei Ubereinstim- 
mung der zu verif izierenden gelesenen Adresse mit einer der 
Transliterationsvarianten eines Eintrages oder einer Ahn- 
lichkeit im festgelegten AhnlichkeitsmaS die Adresse akzep- 
tiert wird. 



FIG 1 



GR 2001P09588 



1/2 




c 
<D 

O CD CO 5 

§ C a> 

ill !; 

DQ 03 CO "O 



GR2001P09588 



1 




20 



21 



2/2 

C^START^) 



Abgetastetes Bild von einem 
Brief, Packchen, etc. 
I 



Bildvorverarbeitung mit 

- Adressblockfindung 

- Zeilensegmentierung 

- Zeichensegmentierung 

i 



Sprachentscheidung 



22 



23 



Zeichen-Erkennung 



Adressanalyse 
mit Syntaxermittlung 



25 



24 



Wort- 
Erkennung 



Adress-lnterpretation mit 

- Bestatigung 

- Korrektur 

- Rejektierung der Adresse 



nein 



nein 



26 




Wissenbasen 



11.1-n 



12 



Layout-Modelle R., r _ 
Layout-Modelle R„| 



Sprach-Modelle L 



13.1-n 



Zeichen-Modelle Z 1 ^ 
Zeichen-Modellez n ) 



Syntax-Modelle S 1 ^ 
Syntax-Modelle S„| 



14.1-n 



16 



Multi-Linguale 
AdressDatenbasis 
ADB 



Wort-Modelle W 1 ^ 
| Wort-Modelle W n ^ 



15.1-n 



17 



Entscheidung fur Verteilkode 



Kodierregeln 



27 



^_/~/ Ergebnis 7 



FIG 2 



i 



GR 2001P09588 



CD 



0) 

=3 CO 
O) CO 

3< 




CO 

£ < 
Q 



c 
o 

CO 

<C a) 
-♦— » 
c 



LO 









c 


1 




Wo 


kem 








CD 




ft $ 

CO >^ 

CD 

< < 



. CO 
CO 

c o 
^ -a 
CO o 



CO 

a 

"a5 
~o 
o 



.3? 

CO "(D 

=3 -C 

CD C 

M in 

^ o 

^ o 



CO 



CD JD 
"O ~<D 
'55 "§ 



N 
_(D 
O 
O 



CO 



. °> 

x: ^ 

O CD 

co x: 
a. £ 
c 



CO CD 



CO 



CNJ 



CN 



^ c c > 



c 

CD 
-♦— » 

c 

CO 



<D 



o ^ J> o 

ills* 

OQ co CO "O 





